依靠深度​​监督或自我监督的学习,近年来,成对的单图像和稀疏深度数据的深度完成方法的先前方法令人印象深刻。但是,面对一个新的环境,该环境在网上发生测试数据,并且与RGB图像内容和深度稀疏性中的训练数据不同,受过训练的模型可能会遭受严重的性能下降。为了鼓励训练有素的模型在这种情况下运行良好,我们希望它能够连续有效地适应新的环境。为了实现这一目标,我们提出了Metacomp。它利用元学习技术在训练阶段模拟适应策略,然后以自我监督的方式将模型适应新环境。考虑到输入是多模式数据,由于两个模态数据的结构和形式存在显着差异,因此将模型同时改编到两个模态的变化将是一项挑战。因此,我们进一步建议将基本元学习训练中的适应程序分为两个步骤,第一个小时重点放在深度稀疏性上,而第二次参与图像含量。在测试过程中,我们采取相同的策略将模型在线调整为新的多模式数据。实验结果和全面的消融表明,我们的元素能够有效地适应新环境中的深度完成,并适应不同方式的变化。
translated by 谷歌翻译
最近,自我监督的预训练在W.R.T.的各种任务上具有先进的视觉变压器。不同的数据模式,例如图像和3D点云数据。在本文中,我们探讨了基于变压器的3D网格数据分析的学习范式。由于将变压器体系结构应用于新模式通常是非平凡的,因此我们首先将视觉变压器适应3D网格数据处理,即网格变压器。具体而言,我们将网格分为几个非重叠的本地贴片,每个贴片包含相同数量的面部,并使用每个贴片中心点的3D位置形成位置嵌入。受MAE的启发,我们探讨了如何使用基于变压器的结构对3D网格数据进行预训练如何使下游3D网格分析任务受益。我们首先随机掩盖网格的一些补丁,并将损坏的网格馈入网格变形金刚。然后,通过重建蒙版补丁的信息,该网络能够学习网格数据的区分表示。因此,我们命名我们的方法meshmae,可以在网格分析任务(即分类和分割)上产生最先进或可比性的性能。此外,我们还进行了全面的消融研究,以显示我们方法中关键设计的有效性。
translated by 谷歌翻译
最近,基于变压器的方法可预测多边形点或偏斜的曲线控制点可以定位文本,在场景文本检测中非常受欢迎。但是,使用的点标签形式意味着人类的阅读顺序,这会影响变压器模型的鲁棒性。至于模型体系结构,以前的方法尚未完全探索解码器中使用的查询的公式。在本文中,我们提出了一个简洁的动态点场景文本检测,称为dptext-detr,它直接将点坐标用作查询,并在解码器层之间动态更新它们。我们指出了一种简单而有效的位置标签形式,以应对原始效果。此外,增强的分解自我发项模块旨在显式地模拟多边形点序列的圆形形状,而不是非本地关注。广泛的实验证明了各种任意形状场景文本基准的训练效率,鲁棒性和最先进的性能。除了探测器之外,我们观察到现有的端到端观察者难以识别类似逆的文本。为了客观地评估他们的绩效并促进未来的研究,我们提出了一个逆文本测试集,其中包含500个手动标记图像。代码和反文本测试集将在https://github.com/ymy-k/dptext-detr上找到。
translated by 谷歌翻译
量子计算机是下一代设备,有望执行超出古典计算机范围的计算。实现这一目标的主要方法是通过量子机学习,尤其是量子生成学习。由于量子力学的固有概率性质,因此可以合理地假设量子生成学习模型(QGLM)可能会超过其经典对应物。因此,QGLM正在从量子物理和计算机科学社区中受到越来越多的关注,在这些QGLM中,可以在近期量子机上有效实施各种QGLM,并提出了潜在的计算优势。在本文中,我们从机器学习的角度回顾了QGLM的当前进度。特别是,我们解释了这些QGLM,涵盖了量子电路出生的机器,量子生成的对抗网络,量子玻尔兹曼机器和量子自动编码器,作为经典生成学习模型的量子扩展。在这种情况下,我们探讨了它们的内在关系及其根本差异。我们进一步总结了QGLM在常规机器学习任务和量子物理学中的潜在应用。最后,我们讨论了QGLM的挑战和进一步研究指示。
translated by 谷歌翻译
近年来,AI系统的安全性吸引了越来越多的研究,特别是在医学成像领域。为了开发安全的医学图像分析(MIA)系统,必须研究可能的后门攻击(BAS),这可以将隐藏的恶意行为嵌入系统中。然而,由于成像方式的多样性(例如,X射线,CT和MRI)和分析任务(例如,分类,检测和分割),设计可以应用于各种MIA系统的统一BA方法是具有挑战性的。大多数现有的BA方法旨在攻击自然图像分类模型,该模型将空间触发器应用于训练图像,不可避免地破坏中毒像素的语义,导致攻击密集预测模型的失败。为了解决这个问题,我们提出了一种新的基于频率喷射的次频率注入的后门攻击方法(FIBA),其能够在各种MIA任务中提供攻击。具体地,FIBA利用频域中的触发功能,该频域可以通过线性地组合两个图像的光谱幅度将触发图像的低频信息注入中毒图像中。由于它保留了中毒图像像素的语义,因此FIBA可以对分类和密集预测模型进行攻击。 MIA三个基准测试的实验(即,2019年为皮肤病变分类,肾脏肿瘤分割的试剂盒-19,用于内窥镜伪影检测的EAD-2019),验证了FIBA的有效性及其在级的优越性 - 攻击MIA模型的艺术方法以及绕过后门防御。代码将在https://github.com/hazardfy/fiba上获得。
translated by 谷歌翻译
Recent work has demonstrated that natural language processing techniques can support consumer protection by automatically detecting unfair clauses in the Terms of Service (ToS) Agreement. This work demonstrates that transformer-based ToS analysis systems are vulnerable to adversarial attacks. We conduct experiments attacking an unfair-clause detector with universal adversarial triggers. Experiments show that a minor perturbation of the text can considerably reduce the detection performance. Moreover, to measure the detectability of the triggers, we conduct a detailed human evaluation study by collecting both answer accuracy and response time from the participants. The results show that the naturalness of the triggers remains key to tricking readers.
translated by 谷歌翻译
There is a key problem in the medical visual question answering task that how to effectively realize the feature fusion of language and medical images with limited datasets. In order to better utilize multi-scale information of medical images, previous methods directly embed the multi-stage visual feature maps as tokens of same size respectively and fuse them with text representation. However, this will cause the confusion of visual features at different stages. To this end, we propose a simple but powerful multi-stage feature fusion method, MF2-MVQA, which stage-wise fuses multi-level visual features with textual semantics. MF2-MVQA achieves the State-Of-The-Art performance on VQA-Med 2019 and VQA-RAD dataset. The results of visualization also verify that our model outperforms previous work.
translated by 谷歌翻译
关于点击率(CTR)预测的最新研究通过对更长的用户行为序列进行建模,已达到新的水平。除其他外,两阶段的方法是用于工业应用的最先进的解决方案(SOTA)。两阶段方法首先训练检索模型,以事先截断长行为序列,然后使用截短序列训练CTR模型。但是,检索模型和CTR模型是分别训练的。因此,CTR模型中检索到的子序列不准确,它降低了最终性能。在本文中,我们提出了一个端到端范式来建模长行为序列,与现有模型相比,该序列能够实现卓越的性能以及出色的成本效益。我们的贡献是三倍:首先,我们提出了一个名为ETA-NET的基于哈希的有效目标(TA)网络,以基于低成本的位置操作来启用端到端的用户行为检索。提出的ETA-NET可以通过顺序数据建模的数量级来降低标准TA的复杂性。其次,我们建议将通用系统体系结构作为一种可行的解决方案,用于在工业系统上部署ETA-NET。特别是,与SOTA两阶段方法相比,ETA-NET已部署在TAOBAO的推荐系统上,并在CTR上带来了1.8%的升降机和3.1%的升降机(GMV)。第三,我们在离线数据集和在线A/B测试上进行了广泛的实验。结果证明,在CTR预测性能和在线成本效益方面,所提出的模型大大优于现有的CTR模型。 ETA-NET现在为TAOBAO的主要流量提供服务,每天为数亿用户提供服务。
translated by 谷歌翻译
人搜索是多个子任务的集成任务,例如前景/背景分类,边界框回归和人员重新识别。因此,人搜索是一个典型的多任务学习问题,尤其是在以端到端方式解决时。最近,一些作品通过利用各种辅助信息,例如人关节关键点,身体部位位置,属性等,这带来了更多的任务并使人搜索模型更加复杂。每个任务的不一致的趋同率可能会损害模型优化。一个直接的解决方案是手动为不同的任务分配不同的权重,以补偿各种融合率。但是,鉴于人搜索的特殊情况,即有大量任务,手动加权任务是不切实际的。为此,我们提出了一种分组的自适应减肥方法(GALW)方法,该方法会自动和动态地调整每个任务的权重。具体而言,我们根据其收敛率对任务进行分组。同一组中的任务共享相同的可学习权重,这是通过考虑损失不确定性动态分配的。对两个典型基准(Cuhk-Sysu and Prw)的实验结果证明了我们方法的有效性。
translated by 谷歌翻译
注意机制在视力识别方面取得了巨大成功。许多作品致力于提高注意力机制的有效性,该机制精心设计了注意操作员的结构。这些作品需要大量实验才能在场景变化时挑选最佳设置,这会消耗大量时间和计算资源。此外,神经网络通常包含许多网络层,并且大多数研究通常使用相同的注意模块来增强不同的网络层,从而阻碍了自我发挥机制的性能的进一步改善。为了解决上述问题,我们提出了一个自我发挥的模块SEM。基于注意模块和替代注意操作员的输入信息,SEM可以自动决定选择和集成注意操作员以计算注意力图。 SEM的有效性通过广泛使用的基准数据集和流行的自我发挥网络的广泛实验来证明。
translated by 谷歌翻译